智能论文笔记

Online Subset Selection using $α$-Core with no Augmented Regret

Sourav Sahoo , Samrat Mukhopadhyay , Abhishek Sinha

分类：机器学习 | 人工智能

2022-09-28

我们考虑在线学习设置中的顺序稀疏子集选择的问题。假设集合$ [n] $由$ n $不同的元素组成。在$ t^{\ text {th}} $ round上，单调奖励函数$ f_t：2^{[n]} \ to \ m athbb {r} _+，$，为每个子集分配非阴性奖励$ [n]，向学习者透露$。学习者在奖励功能$ f_t $ for $ f_t $之前（k \ leq n）$选择（也许是随机的）子集$ s_t \ subseteq [n] $ of $ k $元素。由于选择的结果，学习者在$ t^{\ text {th}} $ round上获得了$ f_t（s_t）$的奖励。学习者的目标是设计一项在线子集选择策略，以最大程度地提高其在给定时间范围内产生的预期累积奖励。在这方面，我们提出了一种称为Score的在线学习策略（带有Core的子集选择），以解决大量奖励功能的问题。拟议的分数策略基于$ \ alpha $ core的新概念，这是对合作游戏理论文献中核心概念的概括。我们根据一个名为$ \ alpha $的遗憾的新绩效指标为分数政策建立学习保证。在这个新的指标中，与在线政策相比，离线基准的功能适当增强。我们给出了几个说明性示例，以表明可以使用分数策略有效地学习包括子模型在内的广泛奖励功能。我们还概述了如何在半伴奏反馈模型下使用得分策略，并以许多开放问题的总结结束了论文。

translated by 谷歌翻译

AdverSAR: Adversarial Search and Rescue via Multi-Agent Reinforcement Learning

Aowabin Rahman , Arnab Bhattacharya , Thiagarajan Ramachandran , Sayak Mukherjee , Himanshu Sharma , Ted Fujimoto , Samrat Chatterjee

分类：机器人 | 机器学习

2022-12-20

Search and Rescue (SAR) missions in remote environments often employ autonomous multi-robot systems that learn, plan, and execute a combination of local single-robot control actions, group primitives, and global mission-oriented coordination and collaboration. Often, SAR coordination strategies are manually designed by human experts who can remotely control the multi-robot system and enable semi-autonomous operations. However, in remote environments where connectivity is limited and human intervention is often not possible, decentralized collaboration strategies are needed for fully-autonomous operations. Nevertheless, decentralized coordination may be ineffective in adversarial environments due to sensor noise, actuation faults, or manipulation of inter-agent communication data. In this paper, we propose an algorithmic approach based on adversarial multi-agent reinforcement learning (MARL) that allows robots to efficiently coordinate their strategies in the presence of adversarial inter-agent communications. In our setup, the objective of the multi-robot team is to discover targets strategically in an obstacle-strewn geographical area by minimizing the average time needed to find the targets. It is assumed that the robots have no prior knowledge of the target locations, and they can interact with only a subset of neighboring robots at any time. Based on the centralized training with decentralized execution (CTDE) paradigm in MARL, we utilize a hierarchical meta-learning framework to learn dynamic team-coordination modalities and discover emergent team behavior under complex cooperative-competitive scenarios. The effectiveness of our approach is demonstrated on a collection of prototype grid-world environments with different specifications of benign and adversarial agents, target locations, and agent rewards.

translated by 谷歌翻译

Collisionless Pattern Discovery in Robot Swarms Using Deep Reinforcement Learning

Nelson Sharma , Aswini Ghosh , Rajiv Misra , Supratik Mukhopadhyay , Gokarna Sharma

分类：机器人

2022-09-20

我们提出了一个基于强化的学习框架，用于自动发现在脂肪机器人群的任何初始配置中可用的模式。特别是，我们对脂肪机器人群中无碰撞收集和相互可见性的问题进行了建模，并发现使用我们的框架来解决它们的模式。我们表明，通过根据某些约束（例如相互可见性和安全接口）来塑造奖励信号，机器人可以发现无碰撞的轨迹，导致形成良好的聚集和可见性模式。

translated by 谷歌翻译

Detecting respiratory motion artefacts for cardiovascular MRIs to ensure high-quality segmentation

Amin Ranem , John Kalkhof , Caner Özer , Anirban Mukhopadhyay , Ilkay Oksuz

分类：计算机视觉

2022-09-20

尽管机器学习方法在其培训领域表现良好，但通常在现实世界中往往会失败。在心血管磁共振成像（CMR）中，呼吸运动代表了采集质量以及随后的分析和最终诊断的主要挑战。我们提出了一个工作流程，该工作流程预测CMRXMOTION挑战2022的CMR中呼吸运动的严重程度得分。这是技术人员在获取过程中立即提供有关CMR质量的反馈的重要工具，因为可以直接重新获得质量较差的图像，同时还可以重新获得质量。该患者在附近仍有可用。因此，我们的方法可确保获得的CMR在用于进一步诊断之前达到特定的质量标准。因此，在严重运动人工制品的情况下，它可以有效地进行适当诊断的有效基础。结合我们的细分模型，这可以通过提供完整的管道来保证适当的质量评估和对心血管扫描的真实细分来帮助心脏病专家和技术人员的日常工作。代码库可在https://github.com/meclabtuda/qa_med_data/tree/dev_qa_cmrxmotion获得。

translated by 谷歌翻译

Lip-to-Speech Synthesis for Arbitrary Speakers in the Wild

Sindhu B Hegde , K R Prajwal , Rudrabha Mukhopadhyay , Vinay P Namboodiri , C. V. Jawahar

分类：计算机视觉 | 自然语言处理

2022-09-01

在这项工作中，我们解决了为野外任何演讲者发出静音唇部视频演讲的问题。与以前的作品形成鲜明对比的是，我们的方法（i）不仅限于固定数量的扬声器，（ii）并未明确对域或词汇构成约束，并且（iii）涉及在野外记录的视频，反对实验室环境。该任务提出了许多挑战，关键是，所需的目标语音的许多功能（例如语音，音调和语言内容）不能完全从无声的面部视频中推断出来。为了处理这些随机变化，我们提出了一种新的VAE-GAN结构，该结构学会了将唇部和语音序列关联到变化中。在指导培训过程的多个强大的歧视者的帮助下，我们的发电机学会了以任何人的唇部运动中的任何声音综合语音序列。多个数据集上的广泛实验表明，我们的优于所有基线的差距很大。此外，我们的网络可以在特定身份的视频上进行微调，以实现与单扬声器模型相当的性能，该模型接受了$ 4 \ times $ $数据的培训。我们进行了大量的消融研究，以分析我们体系结构不同模块的效果。我们还提供了一个演示视频，该视频与我们的网站上的代码和经过训练的模型一起展示了几个定性结果： -合成}}

translated by 谷歌翻译

HTML版本

Towards MOOCs for Lip Reading: Using Synthetic Talking Heads to Train Humans in Lipreading at Scale

Aditya Agarwal , Bipasha Sen , Rudrabha Mukhopadhyay , Vinay Namboodiri , C. V Jawahar

分类：计算机视觉

2022-08-21

许多具有某种形式听力损失的人认为唇读是他们日常交流的主要模式。但是，寻找学习或提高唇部阅读技能的资源可能具有挑战性。由于对与同行和言语治疗师的直接互动的限制，Covid $ 19 $流行的情况进一步加剧了这一点。如今，Coursera和Udemy等在线MOOCS平台已成为多种技能开发的最有效培训形式。但是，在线口头资源很少，因为创建这样的资源是一个广泛的过程，需要数月的手动努力来记录雇用的演员。由于手动管道，此类平台也受到词汇，支持语言，口音和扬声器的限制，并且使用成本很高。在这项工作中，我们研究了用合成生成的视频代替真实的人说话视频的可能性。合成数据可用于轻松合并更大的词汇，口音甚至本地语言以及许多说话者。我们提出了一条端到端的自动管道，以使用最先进的通话标题视频发电机网络，文本到语音的模型和计算机视觉技术来开发这样的平台。然后，我们使用仔细考虑的口头练习进行了广泛的人类评估，以验证我们设计平台针对现有的唇读平台的质量。我们的研究具体地指出了我们方法开发大规模唇读MOOC平台的潜力，该平台可能会影响数百万听力损失的人。

translated by 谷歌翻译

FaceOff: A Video-to-Video Face Swapping System

Aditya Agarwal , Bipasha Sen , Rudrabha Mukhopadhyay , Vinay Namboodiri , C. V. Jawahar

分类：计算机视觉

2022-08-21

双打在电影业中起着必不可少的作用。他们代替了演员在危险的特技场景或同一演员扮演多个角色的场景中代替。后来，Double的脸被演员的脸部和表达式取代，并用昂贵的CGI技术手动表达，耗资数百万美元，花了几个月的时间才能完成。一种自动化，廉价且快速的方法可以是使用旨在将身份从源面部视频（或图像）交换为目标面部视频的面部交换技术。但是，这种方法无法保留演员对场景上下文重要的源表达式。％对场景必不可少的。在电影院中必不可少的％。为了应对这一挑战，我们介绍了视频对视频（V2V）面部扫描，这是一项可以保留面部交换的新任务（1）源（演员）面部视频的身份和表达方式和（2）背景和目标（双重）视频的姿势。我们提出了一个V2V面部交换系统Cownoff，该系统通过学习强大的混合操作来运行，以根据上述约束来合并两个面部视频。它首先将视频减少到量化的潜在空间，然后将它们混合在减少的空间中。对抗以一种自我监督的方式进行了训练，并坚决应对V2V面部交换的非平凡挑战。如实验部分所示，面对面的表现明显优于定性和定量的交替方法。

translated by 谷歌翻译

To show or not to show: Redacting sensitive text from videos of electronic displays

Abhishek Mukhopadhyay , Shubham Agarwal , Patrick Dylan Zwick , Pradipta Biswas

分类：计算机视觉 | 人工智能 | 机器学习

2022-08-19

随着视频录制的越来越多的流行率，对可以维护记录人员隐私的工具的需求日益增长。在本文中，我们定义了一种使用光学角色识别（OCR）和自然语言处理（NLP）技术的组合从视频中编辑个人身份文本的方法。当与不同的OCR模型，特别是Tesseract和Google Cloud Vision（GCV）的OCR系统时，我们检查了这种方法的相对性能。对于拟议的方法，GCV的性能以准确性和速度显着高于Tesseract。最后，我们探讨了现实世界应用中这两种模型的优势和缺点。

translated by 谷歌翻译

Resisting Adversarial Attacks in Deep Neural Networks using Diverse Decision Boundaries

Manaar Alam , Shubhajit Datta , Debdeep Mukhopadhyay , Arijit Mondal , Partha Pratim Chakrabarti

分类：机器学习 | 计算机视觉

2022-08-18

深度学习（DL）系统的安全性是一个极为重要的研究领域，因为它们正在部署在多个应用程序中，因为它们不断改善，以解决具有挑战性的任务。尽管有压倒性的承诺，但深度学习系统容易受到制作的对抗性例子的影响，这可能是人眼无法察觉的，但可能会导致模型错误分类。对基于整体技术的对抗性扰动的保护已被证明很容易受到更强大的对手的影响，或者证明缺乏端到端评估。在本文中，我们试图开发一种新的基于整体的解决方案，该解决方案构建具有不同决策边界的防御者模型相对于原始模型。通过（1）通过一种称为拆分和剃须的方法转换输入的分类器的合奏，以及（2）通过一种称为对比度功能的方法限制重要特征，显示出相对于相对于不同的梯度对抗性攻击，这减少了将对抗性示例从原始示例转移到针对同一类的防御者模型的机会。我们使用标准图像分类数据集（即MNIST，CIFAR-10和CIFAR-100）进行了广泛的实验，以实现最新的对抗攻击，以证明基于合奏的防御的鲁棒性。我们还在存在更强大的对手的情况下评估稳健性，该对手同时靶向合奏中的所有模型。已经提供了整体假阳性和误报的结果，以估计提出的方法的总体性能。

translated by 谷歌翻译

Extreme-scale Talking-Face Video Upsampling with Audio-Visual Priors

Sindhu B Hegde , Rudrabha Mukhopadhyay , Vinay P Namboodiri , C. V. Jawahar

分类：计算机视觉

2022-08-17

在本文中，我们探讨了一个有趣的问题，即从$ 8 \ times8 $ Pixel视频序列中获得什么。令人惊讶的是，事实证明很多。我们表明，当我们处理此$ 8 \ times8 $视频带有正确的音频和图像先验时，我们可以获得全长的256 \ times256 $视频。我们使用新颖的视听UPPRAPLING网络实现了极低分辨率输入的$ 32 \ times $缩放。音频先验有助于恢复元素面部细节和精确的唇形，而单个高分辨率目标身份图像先验为我们提供了丰富的外观细节。我们的方法是端到端的多阶段框架。第一阶段会产生一个粗糙的中间输出视频，然后可用于动画单个目标身份图像并生成逼真，准确和高质量的输出。我们的方法很简单，并且与以前的超分辨率方法相比，表现非常好（$ 8 \ times $改善了FID得分）。我们还将模型扩展到了谈话视频压缩，并表明我们在以前的最新时间上获得了$ 3.5 \ times $的改进。通过广泛的消融实验（在论文和补充材料中）对我们网络的结果进行了彻底的分析。我们还在我们的网站上提供了演示视频以及代码和模型：\ url {http://cvit.iiit.ac.in/research/project/projects/cvit-projects/talking-face-vace-video-upsmpling}。

translated by 谷歌翻译